Model Selection

Multimodal video question answering

# Multimodal video question answering

Llavaction 0.5B

LLaVAction is a multimodal large language model for action recognition, based on the Qwen2 language model, trained on the EPIC-KITCHENS-100-MQA dataset.

Transformers English

MLAdaptiveIntelligence

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase